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核心 来 建造 服务 器 。 最 近 几 年 全 球 主要 的 服务 器 和 芯片 三 商 纷纷 围绕 该 理念 
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微服 务 器 研究 现状 综述 * 


ER 侯 锐 张立新 


微服 务 器 (Micro Server) 的 缘起 和 定义 


数据 中 心 的 能 源 消耗 和 空间 需求 成 为 越 来 越 
的 挑战 ， 服务 器 设计 者 提出 微服 务 器 的 形 


人 


EE 要 的 经 济 和 环境 问题 ,为 了 应 对 
E 念 ， 即 以 低 功 耗 、 中 等 甚至 低 复杂 度 的 处 理 器 作为 
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此 带 来 


avy 


出 


系列 的 高 


能 效 微服 务 器 及 其 发 展 路 线 图 。 比 如 戴尔 (DELL) 由、 惠普 CHP) ABIA SeaMicro 中 等 服务 
器 厂商 发 布 了 他 们 的 微服 务 器 系统 (DELL PowerEdge. HP ProLiant. HP Redstone, Seamicro 


SM10000); 英特尔 〈Intel) 发 布 了 ivy bridge 架构 的 Atom 处 理 
列 ; ARM Cortex A9/A15 处 理 器 也 在 进军 月 
的 X-gene 64 位 服务 器 处 理 


器 将 在 不 久 面世 


器 集 ， 


到 了 


数据 处 理 的 应 月 
成 本 以 及 计算 密 


台 机 器 或 
题 的 一 个 有 前 景 的 途径 ， 


ALAR A 


日 场 景 ， 微 有 


量 来 自 于 实际 应 用 的 数据 表明 


， 对 


民 务 器 采用 的 
度 等 方面 均 上 共有 较 大 的 优势 。 


1.1 微服 务 器 具有 更 好 的 性 能 功 耗 比 


为 了 验 训 


了 一 个 大 数据 处 理 的 : 
大 数据 管理 系统 。 有 具体 的 测试 
的 低 功 耗 


Intel Atom 


能 系统 ， 而 


NZA 
o 


E 低 功 耗 处 


里 器 的 高 性 能 


型 负载 站 


时 间 上 做 到 公平 ， 我 人 


现 ， 


N 


Atom 集群 代表 低 功 耗 微 处 理 器 平台 。 
node)， 用 于 元 数据 (metadata) 的 记录 、 任 务 分 配 和 系统 管理 ， 其 余 30 


(slave node)， 用 于 运行 主 节点 分 配 来 的 任务 。 两 个 集群 者 


在 节点 数量 〈31 个 )、 工 作 类 型 


两 个 集群 花费 的 


群 的 一 半 。 


的 集群 。 正 因 


个 重要 方面 。 


EF 台 包括 一 个 基于 Intel Xeon 的 高 端 服务 器 集 


服务 器 集群 。 K 1 列 出 了 配置 细节 。Xeon 集群 代表 数据 中 心 常用 的 高 性 


i Hai SF 


| 几 百 个 高 性 能 


日 得 到 广泛 的 应 用 。 
于 一 大 类 数据 中 心 的 典型 工作 负载 , 尤其 是 一 些 大 


器 Centerton 和 Xeon E3 系 
有 务 器 行业 ， 全 面 面 向 服务 器 设计 的 ARMv8 架构 
。 这 些 系 统 将 几 十 至 
且 。 可 以 预见 , 微服 务 器 是 解决 现代 计算 系统 能 源 和 空间 问 
微服 务 器 在 数据 中 心 领 域 将 会 


功 耗 比 的 处 理 


功 耗 比 ， 我 们 在 基于 Xeon 和 Atom 的 两 个 集群 上 洲 
基于 Hadoop 的 Mastiff. Mastiff 是 一 个 列 存储 的 分 布 式 


低 端 处 理 器 比 传统 的 高 端 处 理 器 在 计算 效能 、 硬 件 


I 试 


1 (b) 


HE o 
能 量 都 只 是 Xeon 集群 的 


Sb E. 


用 里 


所 示 ，Atom 集群 消耗 的 


此 得 到 结论 ， 在 本 实验 环境 
如 此 ， 使 用 低 功 耗 、* 


ese 


群 和 


个 基于 


“ 台 。 集 群 中 有 一 个 节点 作为 主 节点 (master 
节点 作为 从 节点 
使 用 千 兆 交换 机 进行 互联 。 
数据 加 载 (Data load) 和 数据 查询 (Data query), 
输入 数据 CTB) 均 相 同 的 情况 下 ， 图 1 Cad 对 比 了 两 种 集群 的 功 耗 和 性 能 
数据 加 载 和 数据 碍 询 两 种 情景 下 完成 所 有 工作 ，Atom 集群 消耗 的 


可 以 发 现 ， 在 


由 于 在 节点 数目 相同 的 情况 下 Atom 完成 工作 所 花 的 时 间 是 Xeon 集群 的 两 倍 ， 为 了 在 
门将 Xeon 集群 的 从 节点 数目 减少 一 半 ， 从 30 降 到 15。 再 次 测试 后 发 
寺 间 相当 ， 而 如 图 


RFE Xeon Æ 


F Atom 的 集群 性 能 功 耗 比 要 高 于 基于 Xeon 


等 复杂 度 处 理 器 成 为 当前 计算 机 系统 发 展 新 趋势 中 的 一 


国际 上 众多 研究 小 组 的 观察 也 得 到 类 似 结论 , 对 于 一 大 类 数据 中 心 的 典型 负载 ， 


* 本 在 


究 得 到 IBM SUR 大 学 合作 项 目 


的 资助 


SRS ait FED 


尤其 是 追求 高 并 发 ， 而 对 单线 程 处 理 能 力 要 求 不 高 的 负载 , 微服 务 器 比 高 端 服务 器 具备 更 好 


的 性 能 功 耗 比 。 


Xeon 集群 


31 


31 


SuperCloud SC-R6280 


Dawning 1610r-H 


2U 8 节点 


1U 1 节点 


Intel Atom D525 
(双核 /4 线程 /1.8 GHz 
/1M L2 缓存 / 
13W Max TDP) 


Intel xeon E5310 
(4 核 /4 线程 /1.6 GHz 
/8M L2 缓存 / 
80W Max TDP) 


Intel ICHSR 


Intel 5100+ICH9R 


2x2GB DDR3 Non-ECC 
800MHz SO-DIMM 


2x2GB FBD 
DDR2 667MHz ECC 


500GB SATA 5400RPM 


1TB SATA 7200RPM 


2xIntel 82574L 
干 兆 比 以 太 网 


2xIntel 82573E 
干 兆 比 以 太 网 


电源 模块 


720W (1+1 备份 ) 


520W 


操作 系统 


ClientOS release 5.5 Final 
(Linux Kernel:2.6.18-194.el5 x86-64) 


软件 


= 
oO 


wm Atom 集群 
© Xeon 集群 


能 量 消耗 (千瓦 时 ) 
OFPNWAUANODO 


页 


数据 加 载 


1. Atom 和 Xeon PYF} SHE ZE(a). (b)P 


JDK1.6.0-16,Hadoop 0.20.2, 
Mastiff-0.1.2,Hive-0.5.0 


数据 查询 
(a) 两 种 集群 节点 数 相同 


1.2 微服 务 器 具有 更 好 的 性 价 比 


根据 市 场 调 查 ， 互 联网 服务 业 是 服务 器 市 场 
普 实验 室 的 凯 文 . 林 (Kevin Lim) 等 研究 者 


发 了 


能 量 消耗 (千瓦 时 》 


个 模仿 数据 ， 


mm Atom 集群 
5 | m Xeon 集群 


数据 加 载 
(b) 两 种 集群 完成 同一 操 
作 花 费时 间 相 同 


本 种 条 件 下 能 耗 的 比较 回 


增长 最 快 的 部 分 ， 每 年 增长 40~65%。 
心 互 联网 服务 负载 的 基准 


Hy 
TS 
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测试 程序 套件 中。 
MapReduce 4 


互联 网 搜索 (Web Search), HE% W hs 4 
日 成 ， 可 以 分 别 作为 无 结构 数据 、 用 户 交 互 、 多 媒体 和 互联 网 
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platform) 这 四 种 互联 网 服务 的 代表 。 


凯 文 . 林 小 组 以 总 拥有 成 本 (TCO, Total Cost of Ownership， 该 小 组 将 其 定义 为 硬 伯 


置 成 本 加 上 


pe 


FE 的 电费 


率 的 总 和 与 时 间 的 乘积 来 计算 。 
率 乘 以 0.75 来 估计 平均 功率 。 他 
件 的 花费 是 相当 的 ， CPU 的 购置 成 本 和 CPU 的 能 
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E (Web Mail). YouTube 和 


EG (web as a 


) 作为 “价格 ”扩展 了 “性 价 比 ”的 概念 


于 服务 器 不 会 总 是 工作 刀 


成 本 和 能 源 花费 也 是 相 
成 本 和 能 


在 传统 的 数据 库 或 高 怕 
FE 决 定 了 性 能 的 提高 更 多 要 依赖 于 服务 器 的 数量 。 大 型 的 互联 网 服务 公司 ， 如 谷歌 
的 低 端 服务 器 来 建造 他 们 的 服务 器 。 在 这 背后 上 


HRE 


(Google) 成 功 地 利用 了 商 月 


定 了 成 本 ， 低 端 服务 器 
J 
种 配置 的 新 型 服务 器 性 


表 2. 六 种 不 同 级 别 
系统 


[ 文 . 林 小 组 对 比 了 


相当 


门 对 各 种 成 本 的 分 析 得 出 几 点 引 人 注 意 上 


ty 

， 三 年 电费 由 所 有 部 件 功 

EWN SATIRE, Bae LN HDD 

4 结果 : 能 源 和 硬 

是 两 项 最 大 的 花费 ， 内 存 和 磁盘 的 购置 


当 大 的 ; 要 想 达 到 有 竞争 力 的 性 价 比 , 需要 综合 考虑 系统 各 个 部 件 的 
ERE HR OS ai BC, 人们 尽量 提高 单 节点 的 性 能 。 但 是 互联 网 服务 


巨大 的 市 场 规 模 极 大 降低 了 购置 价格 。 


六 种 不 同 配置 的 服务 器 ， 以 中 
介 比 。 六 种 配置 及 其 消耗 功率 和 价格 如 表 2 


的 服务 器 配置 中 
F 


CPU 内 存 


端的 传统 服务 器 为 基准 


ER ce UA 


评估 了 其 


所 示 : 


TNR (BL) | 价格 ($) 


Xeon 


服务 器 1 


Opteron MP 


MP, 2p x 4 cores, 2.6 GHz, 


OoO, 64K/8MB L1/L2 


FB-DIMM 


340 3294 


服务 器 2 


Xeon, Opteron 


1p x 4 cores, 2.6 GHz, 
OoO, 64K/8MB L1/L2 


FB-DIMM 


215 1689 


Core2, 
Athlon64 


1p x 2 cores, 2.2 GHz, 
OoO, 32K/2MB L1/L2 


DDR2 


135 849 


Core2 Mobile, 
Turion 


1p x 2 cores, 2.0 GHz, 
OoO, 32K/2MB L1/L2 


DDR2 


78 989 


PA Semi, 
Emb. Athlon64 


1p x 2 cores, 1.2 GHz, 
OoO, 32K/1MB L1/L2 


DDR2 


52 499 


“服务 器 1” 和 “服务 器 2” AAA 
“移动 ”代表 移动 系统 ,“ 骨 入 式 1” 和 “ 


有 六 种 系统 都 8 
7200rpm 硬盘 


mL 


与 基准 配置 服务 器 
最 大 的 折扣 来 自 于 CPU 


A 


是 服务 器 1 配置 的 25%, MRAR 10 
设备 。 功 耗 的 下 降 与 硬 伯 
1 相 比 节 省 了 60% 的 能 源 ， 而 能 入 式 工 则 


价格 略 高 了 


桌面 


AMD Geode, 
VIA Eden-N 


1p x 1 cores, 6(00MHz, 
inord.,32K/128K 
L1/L2 


P 端 和 低 端 服务 器 系统 ， 


pu 
PK 


入 式 2” 分 别 代 表 中 端 条 
CL. 4GB 内 存 ， 服 务 器 1 配 以 1.5Krpm 硬盘 和 10G 以 太 网 ， 
和 1G 以 太 网 。 


“桌面 ”代表 桌面 系统 ， 
Meese PRAT ABE Hi 
他 系统 配 以 


1 HEL, ÆA 
, DDR2 WfetHE 


上 FB-DIMM 也 带 来 不 少 的 


节点 上 看 ， 其 它 所 有 系统 的 硬件 成 本 有 很 明显 的 下 降 ， 


节 和 省。 桌面 配置 的 价格 仅 


rH 


只 有 15%。 由 于 低 功 耗 部 
F 成 本 的 下 降 有 着 很 相似 的 


节省 了 更 多 的 电力 ， 达 到 


的 额外 成 本 ， 移 动 设备 
趋势 。 桌面 系统 与 服务 器 
了 85%. 


PUER 


性 能 /购置 成 


本 


性 能 / 功 耗 


性 能 /总 体 拥 
有 成 本 


i 字数 统计 


负载 类 别 
互联 网 搜索 
互联 网 邮件 
YouTube 
mapred-wc ` 
mapred-wr” 
调和 平均 值 
互联 网 搜索 
互联 网 邮件 
YouTube 
mapred-wc 


mapred-wr 


调和 平均 值 


互联 网 搜索 
互联 网 邮件 
YouTube 
mapred-wc 
mapred-wr 
调和 平均 值 
互联 网 搜索 
互联 网 邮件 
ytube 
mapred-wc 
mapred-wr 


调和 平均 值 


1 分布 式 文件 写 入 


不 出 所 料 


Youtube 与 互联 网 搜索 不 
型 的 ， 性 能 主要 决定 于 网 络 或 磁盘 。 
10-30%， 而 在 互联 网 搜索 和 互联 网 由 
和 75-90%. RAI 2 性 能 下 降 很 明显 ， 对 于 所 有 类 型 的 负载 ， 都 有 所 下 降 。 


综合 考虑 性 能 、 价 格 和 蕊 耗 , 比较 各 配 
和 每 单位 价格 下 的 怕 


显 的 优势 ， 只 


有 成 本 下 的 性 能 提高 了 3~6 fi, A 
统 由 于 CPU 性 能 的 明显 劣势 ， 每 单位 总 体 扩 


的 配置 与 服务 器 1 AY 
(Benchmark) 下 的 性 能 差距 各 不 相同 。 凯 文 . 林 吓 
0 互联 网 邮件 相 比 , 性 能 差 


FE 能 (performance/$): 
BRAR 2 表现 不 但 


时 序 中 不 同 级 别 服 务 器 的 性 能 和 性 价 比 对 比 中 
服务 器 2 


24% 
11% 
86% 
51% 
48% 
27% 
175% 
83% 
629% 
376% 
350% 
201% 
157% 
75% 
566% 
338% 
315% 
181% 
167% 
80% 
600% 
359% 
334% 
192% 


oy WARI IRAR? 


PAS 


tHE 


定 差 距 , 不 同系 统 在 不 同 基准 测试 程序 
如 表 3 的 实验 结果 ，MapRduce 和 


下 所 得 到 的 每 拟 功 砷 


有 成 本 下 的 性 能 在 互联 网 


ARAR 1 仍 与 服务 器 1 相当 ， 好 于 其 它 系统 。 


整体 看 来 ， 比 较 低 端的 消费 市 场 系统 


E 的 怕 


距 较 小 。 这 表明 前 两 种 负载 不 
面 系统 在 MapRduce 和 Youtube 测试 : 
PRES 65-80%, KAIU 1 则 分 别 是 20-50% 


是 CPU 密集 


性 能 下 降 了 


FE 能 (performance/Watt) 


与 服务 器 1 HALE. SAHRA TK 1 都 有 很 明 


E. EWEA IÑ 1 在 MapRduce 和 Youtube 中 每 单位 总 体 拥 
E 互 联网 搜索 中 也 提高 了 60%。 除 服务 器 1 之 外 的 所 有 系 


k 有 较 高 的 性 


b 件 中 有 所 下 降 ， 只 


o 谷歌 的 经 验 已 


经 证 实 了 桌面 系 
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统 的 高 效 性 , (AE AE EAE RAS AS A, (AACN BE CHER A sh 
1 和 2 有 很 大 差别 )。 另 外 按照 服务 器 1 的 配置 ， 每 个 42U 机 架 消耗 13.6KW 电力 ， 而 嵌入 
式 工 仅 消耗 2.7KW 电力 ， 因 此 散热 系统 可 以 更 简化 ， 密 度 可 以 提高 ， 进 而 进一步 节省 成 本 。 


1.3 微服 务 器 具备 更 好 的 集成 密度 


机 柜 设计 方面 : 微服 务 器 的 处 理 器 因为 功 耗 较 低 ， 通 常 没有 风扇 ， 芯 片 管 肢 数目、 每 个 
处 理 器 所 带 内 存 数目 也 较 高 端 服务 器 有 明显 减少 。 这 种 特点 给 系统 设计 带 来 了 新 的 挑战 和 机 
遇 。 一 方面 ， 人 们 有 机 会 在 同样 的 空间 集成 更 多 的 处 理 器 芯片 ， 例 如 ，SeaMicro 公司 在 将 
384 个 双核 Atom (或 者 64 个 Xeon) 处 理 器 、64 个 硬盘 、64 个 干 兆 网 口 〈 或 者 16 个 万 兆 
网 口 ) 集成 到 一 个 10U 的 机 箱 里 和 内， 惠普 将 288 个 EnergyCore (ARM Cortex A9) 集成 到 4U 


ml 


的 机 箱 里 号 。 另 一 方面 ， 在 高 密度 集成 的 环境 里 面 ， 设 计 者 必须 要 考虑 如 何 重新 设计 机 柜 的 
散热 系统 。 根 据 凯 文 . 林 小 组 的 分 析 ， 除 处 理 器 购置 之 外 的 第 二 大 费用 来 自 于 能 源 与 散热 。 
低 功 耗 系统 使 用 更 小 规格 的 电路 板 , 密度 更 大 , 为 了 取得 足够 的 散热 效果 并 且 减 少 散热 成 本 ， 
在 散热 方面 需要 做 更 多 的 优化 。 


综 上 ,微服 务 器 在 功 耗 、 价格 和 体积 上 较 传统 的 服务 器 都 有 很 大 的 优势 。 本 文 的 目的 是 
促进 科研 人 员 和 工业 从 业 人 员 一 起 从 系统 和 芯片 两 个 角度 讨论 系统 结构 的 设计 和 实现 , 并 探 
索 和 分 析 运 行 在 微服 务 器 系统 上 的 应 用 程序 。 本 文 后 继 将 会 分 别 介绍 工业 界 的 产品 和 学 术 界 
的 研究 前 沿 。 


2 ”工业 界 的 产品 


2.1 SeaMicroSM10000 
2.1.1 概览 


SeaMicro SM10000 是 一 个 服务 器 家 族 和 内， 计算 、 存 储 、 交 换 、 管 理 和 负载 平衡 等 所 有 
资源 都 集中 在 一 个 系统 里 。 家 族 成 员 有 三 个 : SM10000-64、SM10000-64HD 和 SM10000-XE。 
它们 在 一 个 10U 高 的 机 箱 里 分 别 集成 了 256 个 Atom、384 个 Atom 或 64 个 Xeon 低 功 耗 处 
理 器 。 与 市 场 上 最 好 的 集群 服务 器 产品 相 比 ，SM10000 只 需要 1/4 的 电力 和 1/6 的 空间 。 


所 有 SM10000 系列 的 计算 机 都 是 10U 高 、30 英 时 长 ， 是 x86-64 架构 ， 支 持 即 插 即 用 ， 
并 且 运 行 现 有 的 操作 系统 、 应 用 程序 、 管 理工 具 ， 不 需要 第 三 方 驱动 程序 ， 也 不 需要 更 改 或 
重新 编译 任何 软件 。 


所 有 SM10000 结构 相同 ， 都 包含 64 个 计算 卡 、8 个 存储 卡 和 8 个 网 络 卡 。 所 有 这 些 卡 
通过 机 箱 内 一 个 高 带宽 低 延 迟 的 网 络 连接 在 一 起 ， 这 个 网 络 称 为 Freedom™ Supercomputer 
Fabric 可 以 提供 1.28Tb/s 的 带宽 。 


2.1.2 计算 卡 


SM10000 家 族 成 员 之 间 的 不 同 只 体现 在 计算 卡 ， 其 它 子 系统 都 相同 。SM10000-64 和 
SM10000-64HD 使 用 的 是 Atom 处 理 器 ，SM10000-XE 使 用 的 是 Sandy Bridge Xeon 处 理 器 。 
SM10000-64 计算 卡 上 包含 4 个 双核 四 线程 1.66GHz x86-64 Atom CPU 芯片 ， 每 个 CPU 芯片 
配 以 4GB DDR3 内 存 。64HD 与 64 的 区 别 仅 是 CPU 芯片 的 数量 增加 到 6 个 ， 内 存 仍 然 是 每 
芯片 4GB, 64HD 计算 卡 有 6 个 Atom 处 理 器 ，RAM 芯片 分 布 在 其 周围 (包括 线路 板 背 面 2 
有 4 个 SeaMicro Freedom ™ ASIC (专用 集成 电路 ) 通信 芯片 。 每 个 XE 计算 卡 上 包括 一 
四 核 八 线程 2.4GH Xeon 处 理 器 ， 并 配 以 32GB DDR3 内 存 ， 线 路 板 两 面 各 有 yeas 
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通信 芯片 与 64 和 64HD 同样 配置 。 
2.1.3 存储 卡 


每 个 存储 卡 上 可 以 安装 八 个 支持 热 插 拔 的 2.5 英寸 SATA 硬盘 或 固态 硬盘 。 硬 盘 驱 动 器 
可 以 绑 定 在 一 起 组 成 磁盘 阵列 (RAID )。 不 同 于 以 前 的 服务 器 ， 磁 盘 绑 定 于 一 个 节点 ， 
SeaMicro 存储 结构 具有 很 强 的 弹性 ， 可 以 更 高 效 地 利用 磁盘 空间 。 磁 盘 空 间 可 以 被 分 割 成 
薄片 slices)， 称 为 虚拟 磁盘 。 虚 拟 磁盘 可 以 分 配给 任何 节点 ， 也 可 以 在 多 个 节点 间 只 读 共 


= 
=i 


T 


a 


2.1.4 网 络 卡 


每 个 网 络 卡 可 以 支持 8 个 干 兆 或 两 个 万 兆 以 太 网 接口 。 装 满 8 个 网 络 卡 的 系统 可 以 设置 
为 64 个 干 兆 接口 或 16 个 万 兆 接口 ， 这 些 接口 相当 于 架 顶 交换 机 Ctop-of-rack switch) 的 上 
行 接口 ， 用 于 连接 行 交换 机 。 万 兆 网 络 使 用 的 是 SFP+ 接 口 ， 可 以 支持 光纤 和 双 绞 线 。 


2.1.5 总 结 


SM10000 是 一 个 标准 的 x86-64 服务 器 系列 ， 可 以 作为 由 60 个 1U、 双 网 口 、 四 核 服务 
器 节点 ， 架 顶 交 换 机 、 终 端 服务 器 和 负载 平衡 器 组 成 的 服务 器 系统 的 替代 品 。SM10000 使 
用 Intel Atom 或 Xeon 处 理 器 ， 只 需 市 场 上 同类 产品 1/4 的 耗 电 量 ， 占 用 1/6 的 空间 ， 同 时 不 
需要 对 软件 做 任何 改动 。 


2.2 HP Redstone 


2.2.1 HP Moonshot 计划 


惠普 在 2011 年 11 月 宣布 了 Moonshot 的 计划 四， 开发 用 于 企业 数据 中 心 的 高 能 效 服 务 
器 。 此 计划 致力 于 在 数 千 服 务 器 节点 之 间 共 享 存储 、 网 络 、 管 理 和 散热 资源 ， 从 而 实现 超大 
规模 (hyperscale) 计算 环境 的 搭建 。Redstone 是 此 计划 设计 的 第 一 个 服务 器 平台 ， 是 利用 
德州 创业 企业 Calxeda 的 ARM 处 理 器 EnergyCore 开发 的 服务 器 产品 。 


2.2.2 Redstone 的 搭建 


4MB 二 级 缓存 10Gb XAUI 


1Gb SGMII 


UART,PC, 
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图 2. Calxeda EnergyCore H KAAN 
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EnergyCore 是 专门 为 超大 规模 服务 器 负载 设计 的 ARM AAH 
产品 ECX1000 是 32 位 双核 或 四 核 处 到 
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器 后 。 第 一 款 EnergyCore 


器 。 芯 片上 集成 了 内 存 、 读 写 (IO)、 和 存储 控制 器 ， 
还 有 一 个 2 层 交 换 结构 ， 如 图 2 所 示 。 这 个 交换 结构 称 为 EnergyCore Fabric Switch， 可 以 文 


持 二 维 环 面 (2D torus)、 网 状 网 (mesh)、 胖 树 (fat tree)、 蝶 形 树 (butterfly tree) 等 网 络 拓 


th. 


Calxeda 将 4 个 ECX-1000 芯片 和 4 个 内 存 模 放 在 一 个 板 卡 上 组 成 一 个 4 节点 的 服务 器 ， 


称 为 EnergyCard， 如 图 3， 上 部 


是 SATA 接口 ， 连 接 到 芯片 内 的 SATA Ei 


是 四 个 DDR3 AAH 


8 模 ， 每 个 芯片 旁边 三 个 和 最 右 侧 的 四 个 
由 器 。 最 下 方 的 PCI 连接 器 可 以 插 到 背 板 (passive 


backplane) 上， 从 而 取得 电源 并 与 其 它 板 卡 的 互联 通路 。 由 于 内 存 控 制 器 、 网 络 部 件 和 其 它 


读 写 部 件 都 和 CPU 核 一 起 集成 在 一 个 芯片 上 ，EnergyCard 是 一 个 很 精简 的 小 板 。Calxeda 
设计 是 在 一 个 2U 的 机 箱 里 放 入 了 120 个 芯片 ， 也 就 是 120 


在 2011 年 初 完成 的 最 早 的 参考 
个 节点 。 密 度 达 到 60 节点 /U。 


图 3. 


Calxeda 4 节点 服务 器 板 卡 5 


惠普 使 用 了 高 度 为 2U 的 半 宽 ProLiant 托盘 和 ProLiant SL650002 机 箱 搭建 Redstone 服 


务 器 。 托 盘 里 插入 了 三 排 ， 每 排 六 个 EnergyCard。 这 样 每 个 托盘 里 就 放置 了 72 个 服务 器 节 
入 4 个 托盘 ， 共 288 个 节点 。 密 度 达 到 了 每 U 空间 72 个 节 


点 。 一 个 SL6500 机 箱 里 可 以 插 


点 。 与 Calxeda 的 参考 设计 相 比 ， 密 度 增 加 了 20%. 


箱 里 有 三 个 互 为 备份 的 电源 供应 模块 ， 组 成 一 个 电源 池 。 即 


Redstone 使 用 的 SL6500 机 


使 其 中 一 个 模块 发 生 故障 ， 整 个 系统 也 可 继续 了 
有 四 个 10Gb/s 的 数据 接口 ， 这 四 个 接 


接口 可 以 通过 10G 以 太 网 接口 


CE. 散热 风扇 的 数量 是 八 个 。 每 个 托盘 前 面 
连接 到 内 部 的 EnergyCore Fabric Switch。 所 有 这 些 


(XAUI) 互联 ， 最 多 可 以 将 4096 个 节点 连接 在 一 起 。( 当 前 
4000 节点 对 于 Hadoop 集群 已 经 是 一 个 很 大 的 规模 ) 


虽然 可 以 通过 托盘 前 面 的 四 个 接口 互联 ， 但 惠普 推荐 的 接 法 是 一 个 SL6500 机 箱 内 部 的 


四 个 托盘 用 集成 的 互联 结构 连接 ， 而 多 个 机 箱 之 间 则 通过 两 条 10Gb 电缆 连接 到 机 架 顶 部 的 
交换 机 上 。 这 样 的 连接 方法 相当 于 把 SL6500 看 作 一 个 带 有 架 顶 交换 机 的 机 架 , 而 外 部 的 10G 
交换 机 则 扮演 了 列 尾 交 换 机 (end-of-row switch) 的 角色 ， 将 多 个 机 架 连 接 在 一 起 。 


在 Redstone 系统 中 ， 默 认 将 磁盘 


放置 在 外 部 的 磁盘 阵列 ， 访 问 磁 盘 要 通过 网 络 。 但 是 


也 可 以 牺牲 节点 的 密度 ， 腾 出 空间 ， 通 过 SATA 接口 在 EnergyCard 上 插入 固态 硬盘 或 2.5 


十 硬盘。 每 个 托盘 内 最 多 可 以 撒 


从 背 板 获取 电源 。 


2.2.3 Redstone 的 现状 


RA 192 个 固态 硬盘 或 96 个 人 硬盘 。 


1 Peripheral Component Interconnect 


这 些 人 硬盘 或 固态 硬盘 可 以 
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目前 ， 半 个 机 架 可 以 容纳 1600 个 Redstone 服务 器 节点 和 它们 使 用 的 交换 机 。 整 个 系统 
共 使 用 41 条 通信 电缆， 总 功率 为 9.9 千瓦 ， 价 格 为 120 万 美元 。 虽 然 一 个 传统 的 处 理 能 
相当 的 x86 集群 ， 仅 需要 400 个 Xeon 节点 ， 但 这 400 个 节点 却 需 要 10 个 机 架 、1600 条 通 
信和 电缆 和 91 千瓦 的 电力 ， 价 格 为 330 万 美元 3 。 


当然 Redstone 与 传统 服务 器 是 有 区 别 的 ， 其 时 钟 频 率 只 有 1.1 或 1.4GHz， 位 宽 只 有 32 
位 ， 单 节点 内 存 上 只 有 4GB， 只 有 部 分 负载 可 以 高 效 地 利用 硬件 资源 。 惠 普 认为 网 页 服务 和 
海量 数据 处 理 在 这 种 环境 下 应 该 会 有 不 错 的 表现 。 


惠普 正在 从 德 克 萨 斯 的 休斯顿 (惠普 的 PC 和 服务 器 工厂 所 在 地 ) 开始 , 逐步 把 Redstone 
服务 器 安装 在 世界 各 地 的 探索 实验 室 (DiscoveryLabs)， 并 且 让 潜在 的 客户 把 他 们 的 程序 上 
传 到 Redstone 服务 器 上 在 Canonical Ubuntu 或 Red Hat Fedora Linux 上 运行 。 


3 ”学 术 界 的 前 沿 


3.1 Nanostore 


世界 上 的 数据 正在 以 爆炸 的 形式 增长 ， 速 度 远 超 摩 尔 定律 。 比 如 谷歌 索引 的 在 线 数据 
2002 年 是 5EB?， 到 2009 年 增长 到 280EB，7 年 增长 了 56 倍 (由 。 而 摩尔 定律 在 这 7 年 里 只 
能 给 计算 机 性 能 带 来 16 倍 的 增长 。 最 近 的 一 项 估计 显示 ， 每 分 钟 有 24 小 时 的 视频 上 传 到 
YouTube。 以 2-5Mbps 的 码 率 计 算 ， 每 天 将 产生 45-75TB 的 数据 。 更 近 一 些 ， 大 规模 的 传 感 
器 部 署 也 加 剧 了 数据 的 爆炸 速率 。 纳 米 级 传感器 的 发 展 使 人 们 可 以 实时 、 细 粒度 地 采集 多 种 
数据 ， 包 括 震 动 、 倾 斜 、 旋 转 、 气 流 、 光 、 温 度 、 化 学 信号 、 湿 度 、 地 理 位 置 等 等 。 看 到 了 
这 些 传 感 器 技术 的 发 展 ， 科 研 人 员 计 划 开 发 一 个 “地 球 中 枢 神经 系统 ”(CeNSE)D5。 这 个 系 
统 将 利用 广泛 分 布 的 传感器 网 络 在 很 多 领域 发 挥 有 趣 的 作用 ， 可 以 深入 零售 、 保 安 、 交 通 、 
地 震 、 石油 勘探 、 天 气 和 气候 、 时 生动 物 跟 踪 等 各 个 方面 。 但 是 这 个 美丽 的 前 景 将 带 来 前 所 
未 有 的 数据 量 和 数据 处 理 负载 。 


移动 电子 设备 在 世界 范围 内 的 普及 程度 持续 上 升 。 这 些 电子 设备 具有 收集 和 发 布 信息 的 
能 力 。 它 们 在 不 停 地 产生 实时 的 丰富 的 数据 。 比 如 在 迈克 尔 .杰克 还 过 世 的 2009 年 6 月 ， 据 
估计 每 分 钟 有 5000 条 微 博 发 布 到 Twitter， 而 AT&T 则 每 分 钟 为 用 户 传送 65000 条 短信 。 在 
一 个 90 天 的 时 间 段 里 ，20% 的 网 络 搜索 访问 的 是 典型 的 “新 数据 ” 鸣 。 值 得 注意 的 是 新 的 
数据 具有 很 高 的 多 样 性 ， 它 们 可 以 是 文字 、 音 频 、 视 频 、 图 像 …… 中 的 任意 一 种 或 多 种 的 组 
合 。 数据 具有 多 样 性 的 同时 ， 对 这 些 数 据 的 组 织 方式 也 多 种 多 样 ， 包 括 有 结构 的 存储 (可 以 
通过 数据 库 访问 )、 无 结构 存储 (以 文件 的 形式 保存 ) 或 者 半 结 构 化 的 存储 (如 XML、 e-mail). 


数据 的 增长 推动 了 以 数据 处 理 为 中 心 的 应 用 程序 的 发 展 ,应 用 程序 对 数据 的 操作 多 种 多 
样 ， 如 : 捕捉、 分类、 分析、 处理、 存档 等 等 。 这 些 操作 的 应 用 实例 更 是 数不胜数 ， 如 网 页 
搜索 、 推 荐 系统 、 决 策 支 持 、 在 线 游戏 、 排 序 、 压 缩 、 传 感 器 网 络 、 特 殊 查 询 、 多 维 数据 服 
% (cubing)、 多 媒体 转 码 、 流 媒体 、 照 片 处 理 、 社 交 网 络 分 析 、 个 性 化 、 自 动 摘 要 
Csummarization)、 索 引 建立 、 歌 曲 识 别 、 聚 合 (aggregation )、 混 搭 (Web mashups)、 数 据 
挖掘， 还 有 加 解密 等 等 。 


与 事务 处 理 和 网 页 服务 这 样 的 传统 负载 相 比 , 新 出 现 的 工作 负载 是 以 数据 为 中 心 的 , 它 
们 使 系统 设计 中 的 很 多 假设 发 生 了 改变 。 新 型 的 负载 数据 规模 更 大 ， 操 作 更 多 样 ， 更 复杂 。 


”10( 百 万 万 亿 )〉 字 节 
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数据 负载 增长 的 同时 ， 技 术 方 面 也 有 一 些 新 的 趋势 。 


多 核 设 计 ， 强 调 多 个 简单 的 核心 ， 以 获得 更 大 的 吞吐 量 ; 处 理 
近 临 界 值 ， 以 提高 性 能 功 耗 比 59。 
宽大 大 增加 。 


然而 ,与 数据 中 心 相关 的 最 重要 的 技术 方面 的 变化 是 非 易 失 存储 器 的 发 展 和 使 


(Flash) 已 经 ) 
Fusion-io。 图 4 


DRAM 的 一 个 可 能 


出 与 内 存 相 似 的 特性 ， 


展示 了 当今 常 上 
的 玲 代 物 。 与 传统 的 便 
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现 的 忆 阻 器 Cmemristors) "2, 


与 DRAM 相当 的 速度 、 更 低 的 功 耗 ， 
EE 力 。 最 近 的 研究 情况 显示 ，DRAM 容量 的 增长 速度 有 所 下 降 0， 而 非 易 失 性 
ies (NVRAM) 有 潜力 取而代之 。 
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计算 方面 ,最近 的 微 处 理 器 倾向 于 
器 核 蕊 片 的 工作 
网 络 方面 ， 为 了 满足 大 量 不 同 计算 单元 之 间 的 通信 ， 带 


EL As ie OE 


用 。 内存 


泛 地 应 用 到 前 沿 消费 市 场 ， 如 iPhone， 在 企业 市 场 也 有 
月 存储 器 成 本 的 变化 趋势 。 这 个 趋势 表明 非 易 失 存储 器 是 
新 出 现 的 非 易 失 存 储 器 
值得 注意 的 有 相 变 存储 器 (phase-change memory, PCMH” RIE 3 H 


定 的 应 用 ， 如 


牛 显示 


未 来 的 非 易 失 存储 器 可 能 成 为 DRAM 的 替代 物 ， 可 以 达到 
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密度 和 寿命 是 NVRAM 的 两 大 技术 问题 ， 


图 4. 
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` 片 可 以 得 到 入 
起 ， 这 样 可 以 得 到 


=e owe 


三 维 Ly 


集成 在 一 


在 单 芯片 范围 内 ， 使 用 


fray EA A PE. XF 


穿 透 侍 通 


更 高 的 带 


忆 阻 器 表现 得 更 好 ， 每 个 和 


的 成 熟 和 扩大 应 用 还 需 假 以 时 日 。 更 多 的 关于 非 易 失 存储 器 的 信息 可 以 在 近期 的 一 
如 HotChips 2010. 


专题 报道 
以 


中 找到 2 
这些 趋 势 显示 ， 把 相 变 存储 器 、 


的 网 络 互联 放 在 
储 结构 中 

这 为 重 
名 词 的 提出 


一 起 思考 ， Ba 
新 的 一 层 ， 或 者 仅 制 造 固 态 硬盘 。 


新 思考 计算 机 系统 结构 和 内 存 
综合 了 当前 微 处 理 器 反 遇 


元 可 以 写 入 107~108 x, 


忆 阻 器 这 
起 更 根本 的 系统 结 


cI ARIA REIN IS 


日 是 最 近 的 趋势 显示 这 些 问 题 可 以 解决 。 多 
fL (through-silicon vias) 互 连 的 
个 好 处 是 方便 把 处 理 器 和 存储 器 
攻 宽 和 更 低 的 功 耗 。 寿 命 方面 ， 与 闪存 相 比 相 变 存储 器 和 


闪存 则 仅 10” 次 。 


些 技 术 ， 尤 其 是 与 三 维 层 


只 是 这 两 种 器 件 


技术 


些 综述 和 


Re. SAFE 


构 的 创新 ， 而 不 是 仅 利 用 


日 它们 构建 层次 存 


层次 提供 了 一 个 不 可 多 得 的 机 会 。Nanostore 这 个 
出 的 纳米 技术 和 以 数据 为 本 代替 以 计算 为 本 的 思 


4H, Nanostore 的 主要 特点 是 把 微 处 理 器 和 非 易 失 存储 器 集成 在 一 起 ， 从 而 去 除 中 间 的 很 
多 存储 结构 层次 。 所 有 的 数据 都 保存 在 单个 层次 的 非 易 失 存储 器 里 ， 而 不 再 使 用 传统 的 磁盘 


= 


Z 


J DRAM 这 两 


结构 ， 人 磁盘 可 以 从 系统 中 移 
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出 去 ， 


作为 备份 厂 置 。 


微服 务 器 下 


究 现 状 综述 


比如 说 一 个 Nanostore 芯片 可 以 


个 三 维 堆 辣 的 高 密度 的 非 易 失 存 储 嚣 ( 相 变 存储 器 


或 忆 阻 器 ) 和 一 个 顶层 的 高 能 效 的 计算 核心 组 成 。 


计算 核心 与 非 易 失 存储 器 之 间 以 穿 透 硅 通 


孔 互 连 ， 以 取得 高 带宽 低 延 迟 的 数据 通信 。 每 个 Nanostore 芯片 都 配 以 网 络 接口 ， 都 是 一 个 
五 脏 俱 全 的 系统 。 很 多 个 芯片 通过 板 上 的 网 络 互联 可 以 以 任何 一 种 拓扑 结构 (古老 的 胖 树 或 
新 出 现 的 HyperXP24 等 等 ) 连接 在 一 起 ， 很 多 Nanostore 芯片 相连 就 组 成 了 一 个 大 规模 的 分 
布 式 系统 ， 与 现 有 的 用 于 数据 本 位 型 (data-centric) 计算 的 大 规模 集群 极为 相似 。 


核 + 一 级 缓存 
pop 


非 易 失 存储 一 eene ET 
= = 
网 络 esa ix eal ic SSeS 
3 z 计算 核心 与 片上 非 易 失 存储 |= 
a 器 、 网 络 接口 集成 ,组 成 = SES 
ZEBI 芯 ， 底 维 堆 和 到 的 Nanostore 模 块 
部 是 CMOS 层 而 交叉 连 线 elena i on 
和 布线 层 在 顶部 a ae 
[a et SSeS 
asas snem 
5 5 
afaa saaal] 
刀片 板 
基于 Nanostore 的 ; 
IN /\ 分 布 式 系统 方案 a 
T De KE H= 
光学 互联 人 多 个 单独 的 刀片 版 安装 在 一 


胖 树 和 HyperX 网 络 拓扑 实例 


图 5. 
Nanostores 将 处 理 器 核心 和 非 易 失 存储 置 于 同一 芯片 并 将 芯片 相互 连接 组 成 一 个 更 大 的 
集群 来 处 理 以 数据 为 中 心 的 负载 流 


在 更 高 层面 ， 很 多 Nanostore 芯片 
可 以 集成 在 一 个 小 的 子 板 (micro 
blades) E, 然后 把 这 些小 板子 插 到 一 个 
经 典 的 刀片 服务 器 背 板 上 。 假 设 这 些 子 
板 的 散热 特性 已 经 确定 ， 可 以 预想 一 个 
新 的 板 级 组 装 技 术 。 如 图 5， 是 一 个 假 
设 的 数据 中 心 设计 ， 很 多 刀片 服务 器 以 
优化 的 散热 和 很 高 的 密度 连接 到 一 个 光 
学 的 背 板 上 。 


供电 和 发 热 是 三 维 层 革 芯片 的 一 个 
重要 问题 ， 它 限制 了 Nanostore oA 

计算 单元 的 数量 。 图 6 展示 了 如 何 加 入 
额外 的 更 强大 的 计算 单元 ， 来 支援 芯片 
上 的 计算 单元 ， 这 就 构建 了 一 个 多 层次 
的 计算 系统 。 这 样 Nanostore 系统 可 以 

像 现在 常见 的 系统 一 样 具 有 强大 的 计算 


单元 和 多 层 的 存储 结构 ， 可 以 处 理 计算 密集 型 负载 , 也 可 以 处 至 


载 。 


个 数据 中 心服 务 器 机 箱 里 


假想 的 数据 中 心 设计 Bl 


图 6. 在 一 个 层次 化 计算 体系 中 外 加 的 
计算 能 力 可 以 和 nanostore 结合 
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遗留 到 未 来 的 旧式 的 工作 负 
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计算 单元 放 在 非 易 失 存储 单元 的 附近 ， 基 于 这 个 前 提 可 以 有 多 种 不 同 的 设计 。 如 网 7 
所 示 ， 这 三 种 方案 很 好 地 对 比 了 不 同 设 计 的 得 失 。 第 一 种 是 较 传统 的 使 用 DRAM 和 固态 硬 
盘 的 设计 ， 第 二 种 是 side-stacked (MHE) Nanostore， 第 三 种 是 三 维 堆 阁 (3D-stacked) 
Nanostore。 第 三 种 设计 与 之 前 的 假想 设计 很 相似 ， 计 算 单 元 堆 登 于 存储 单元 项 部， 二 者 通 
过 通 孔 相连 。 而 第 二 using Nanostore 的 另 一 种 方案 ， 其 中 计算 单元 与 存储 单元 距离 很 近 
是 分 离 的 ， 二 者 彼此 相 邻 ， 通 过 总 线 相 连 。 


€ 
缓存 存储 


(b) 旁 侧 堆 又 的 (c) 三 维 堆叠 的 
Nanostore 存 储 单元 ”Nanostore 存 储 单元 


图 7. 三 种 设计 为 数据 为 中 心 的 工作 流 负 载 处 理 提供 不 同 折 中 选择 [20] 


从 数据 本 位 的 工作 负载 的 角度 看 , 需要 关心 的 问题 是 单位 数量 的 数据 可 以 得 到 多 少 计 算 
资源 和 影响 这 些 资源 被 有 效 使 用 的 瓶颈 在 何 处 。 


传统 的 设计 比较 适合 于 计算 繁重 ， 而 通信 带宽 较 小 的 负载 〈 比 如 视频 转 码 )， 或 者 是 数 

据 集中 ， 热 数据 和 冷 数据 在 数量 上 相差 多 个 数量 级 的 负载 (比如 图 像 存 储 )。 在 这 种 结构 中 ， 

需要 更 多 的 带宽 以 访问 更 下 层 数据 ， 而 要 更 好 地 利用 数据 并 行 性 的 负载 (比如 MapReduce, 
排序 、 点 击 流 和 日 志 分 析 ) NY = EE FSF Nanostore 可 能 更 适用 。 


Nanostore 数据 延迟 较 小 ， 重 写 软件 以 利用 这 个 特性 可 以 带 来 额外 的 好 处 ， 但 最 终 会 遇 
到 网 络 连接 的 瓶颈 。 对 于 高 并 行 性 的 负载 ， 我 们 需要 按照 更 小 的 粒度 并 行 化 ,实现 较 少 的 跨 
节点 通信 ,这 种 情况 下 3D-stacked Nanostore 会 工作 得 最 好 ,但 简单 的 计算 单元 会 成 为 瓶颈 。 
虽然 实现 高 效 的 并 行 化 需要 一 定 的 工作 量 , 但 是 在 开销 、 成 本 和 能 耗 方面 的 优势 会 证 明 这 些 
努力 是 值得 的 。 


数据 本 位 负载 对 带宽 和 延迟 的 需求 、 软 件 的 并 行 化 进程 以 及 本 地 网 络 互联 的 改进 都 是 未 
来 的 计算 机 系统 采用 Nanostore 设计 的 支持 因素 。 


(a) 传 统 设 计 


3.2 新 的 存储 

为 了 处 理 越 来 越 多 的 数据 ， a 《纵向 扩展 ，scale-up) 向 
增加 节点 数目 〈 横 向 扩展 ，scale-out) RAL A T pem at 能 功 耗 比 、 降 低 总 体 
拥有 成 本 ， 横 向 扩展 体系 结构 使 用 大 量 中 等 性 能 CPU， oe 少量 高 性 能 CPU， 量 输入 输 


E (W/O) 资源 一 般 会 与 计算 资源 分 离 ， 并 在 计算 资源 之 间 共 享 。 在 分 离 式 的 结构 下 ， 计 算 
资源 和 读 写 资源 可 以 独立 地 增加 或 减少 。 

前 人 开发 和 使 用 了 很 多 存储 共享 系统 方案 , 比如 iSCSI nternet Small Computer Systems 
Interface) 和 FC (FibreChannel) 2。 虽然 这 些 方案 已 经 广泛 地 在 工业 界 使 用 ， 但 它们 都 是 
针对 存储 域 网 (SAN，Storage area network) 的 9， 并 不 适合 高 密度 的 微服 务 器 ， 因 为 微服 
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微服 务 器 研究 现状 综述 


务 器 一 般 每 个 机 箱 里 集中 了 几 十 到 几 百 个 CPU， 并 且 会 跟 几 十 个 高 性 能 的 存储 设备 相连 。 
因此 ， 为 了 适应 微服 务 器 的 需求 ， 英 特 尔 的 雇 广 登 (Guangdeng Liao， 音 译 ) 等 人 提出 了 一 
个 新 的 高 效 的 基于 块 的 存储 系统 Light Peak Block Transport 或 者 叫做 LBLKPE]。 这 不 仅 是 在 
微服 务 器 之 间 共 享 分 离 式 存储 资源 的 一 个 方案 ， 也 是 一 个 促进 微服 务 器 研发 的 关键 平台 技 
术 。 


LightPeak 也 称 为 Thunderbolt， 是 英特尔 开发 的 一 个 光学 连接 技术 ， 用 于 计算 机 和 消费 
电子 产品 之 间 的 连接 。 这 个 技术 已 经 用 到 了 苹果 的 MacBook Pro 笔记 本 电脑 。LightPeak iti 
过 光纤 提供 10Gbps 或 更 高 的 带宽 ， 并 且 由 于 使 用 了 硅 光 子 技术 〈Silicon Photonics) 技术 ， 
成 本 极 低 。 


LightPeak 可 以 同时 传送 多 种 WO 输入 输出 ) 协议 ， 并 且 以 较 小 的 数据 包 获 得 了 很 低 的 
延迟 。LightPeak 还 提供 了 基于 优先 级 的 带宽 分 配 和 回收 机 制 。 


za 


一 


Light Peak Gen2x4 PCI-Express Card 


7 z reken a” SS 
DEI : JE 2| S 
St Eight Peak 1A S 
Li} | SERELSE Se HR | O g i a 
of S a 10G 收 发 对 + 


图 8， LightPeak PCI-E 卡 的 框图 ?7 


位 于 用 户 空间 的 目标 端 
CSTGT) 


目标 端 驱 动 


文件 系统 


块 读 写 层 


文件 系统 


请 求 队列 / 可 | 
读 写 调度 ZE 进 | 
请 求 队列 / A 

iSCSI 驱动 g 
(iscsi_tcp) a ZONE 
nee? | ae] 


TCP/IP 


网 络 驱动 


(a) (b) 


图 9.， (aiSCSI 执行 流程 ，(b)LBLK 执行 流程 7 


雇 等 人 使 用 LightPeak 网 卡 来 搭建 LBLK 平台 站。 如 图 8， 这 是 一 种 PCE 接口 的 扩 
展 卡 ， 由 一 个 内 部 的 非 阻塞 交换 机 和 配 以 两 个 光学 收发 器 对 的 四 个 10GB 接口 组 成 。 每 个 收 
发 器 对 连接 两 个 10GB 光纤 ， 并 负责 光电 转换 。 内 部 的 交换 机 可 以 同时 处 理 40Gbps 的 接收 
任务 和 发 送 任务 ， 而 且 可 以 在 不 影响 CPU 的 情况 下 直接 把 数据 从 一 个 网 口传 送 到 另 一 个 。 
鉴于 这 些 优 点 ， 微 软 也 在 做 关于 LightPeak 的 实验 ， 以 期 用 于 数据 中 心 的 网 络 连接 。 
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与 传统 的 iSCSI 存储 系统 类 似 ，LBLK 系统 也 是 由 发 起 方 Gnitiator) 和 


目标 (target) 


组 成 ,应 用 程序 在 发 起 方 进 行文 件 操作 ， 目 标 服务 器 接收 发 起 方 发 来 的 命令 ,执行 后 返回 结 


果 。 


LBLK 的 目标 端 是 
储 块 〈Storage Blocks) 和 磁盘 分 区 〈Storage Partitions)。 存 储 块 是 一 个 固定 大 小 的 数据 块 ， 


个 基于 Xeon 的 节点 。 这 个 “存储 节点 ”对 外 


专 输 ! 


H, 
Fe 


的 最 小 音 


象 出 两 个 视角 ， 存 


位 ; 磁盘 分 区 是 一 段 连续 的 存储 块 ， 里 面 的 存储 块 从 零 开始 编号 。 


一 个 分 


区 只 能 分 配给 一 个 服务 器 节点 ， 一 个 服务 器 节点 可 以 得 到 多 个 分 区 。 在 英特尔 的 实现 中 ,为 
每 个 节点 分 配 四 个 分 区 boot, file system, swap 和 data. 


vas EP oe fo 
读 写 层 通 信 ， 


BAS iSCSI 类 似 , 但 如 图 9 所 示 , LBLK 缩短 了 执行 流程 。 发 起 方 驱 动 直接 与 Linux 块 
EPL (BIO, Block VO) 请求 转换 成 通信 层 (communication layer) 的 


数据 流 。 这 个 方案 跳 过 了 SCSI 层 和 基于 请 求 队列 的 读 写 调度 。 路 过 读 写 调度 的 理由 是 ， 微 


服务 器 的 CPU 功能 较 弱 ， 越 来 越 流行 的 固态 人 硬 


通信 层 是 英特尔 专门 为 微服 务 器 环境 定制 的 , 用 于 机 箱 之 间 的 通信 。 在 通信 层 多 个 数据 
流通 过 多 个 物理 通道 顺序 传输 。 通 信和 层 使 用 基 了 
见 相 比 TCP/IP 8 faj 4 


在 目标 端 ， 
上 下 文 切换 。 引 


集群 中 ， 同 时 也 在 LightPeak 上 部 署 了 iSCSI, 
比 iSCSI 更 少 ， 同 时 提供 


MRS 
驱动 程序 是 一 个 内 核 态 的 多 线程 程序 ， 这 样 就 避免 了 开销 昂贵 的 


Le aia 


ERRER IRE 


盘 不 需要 这 个 占用 CPU 时 间 的 i 


mL 


卖 写 调度 器 。 


余额 〈credit) 的 流量 控制 算法 中 ， 设 计 和 


JA% 
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BCH A a Se PN ES RK. 虽然 当前 SCSI 和 请 求 队 列 还 在 
] 一 个 与 NVM Express 类 似 的 基于 块 读 写 的 驱动 程序 蔡 换 它们 。 


为 了 测试 性 能 ， 廖 等 人 将 LBLK 部 署 在 ! 


台 Atom 服务 器 和 一 台 “ 存 储 节 点 ”组 成 的 


4 ”未 来 的 发 展 方向 


的 带宽 更 大 。 
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图 10. Xeon 和 Atom P 
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于 对 比 。 结 果 显 示 LBLK 占用 的 CPU 时 间 
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c3 ReduceWrite Œ] ReduceComp fy Merge 
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(b)Reduce 阶段 


丙种 不 同 的 计算 机 集群 对 不 同 操 作 CPU 时 间 分 解 比较 站 


微服 务 器 


由 于 微服 务 器 单线 程 的 处 到 
从 系统 结构 的 角度 来 讲 ， 
端 处 


HU SCH GEE 
了 低 功 耗 处 理 器 的 高 性 能 
操作 过 程 ( 


分 解 ， 可 以 看 


出 虽然 Map 任务 本 身 


比例 ，Atom 服务 器 上 占用 11%，Xeon 服务 器 上 占用 7%。 
占用 而 不 是 Reduce 任务 本 身 。 在 所 有 的 测试 
比如 在 Atom 集群 
的 CPU 时 i 


解 。 在 Reduce 阶段 大 部 分 时 h 
实例 中 压缩 和 解压 占用 了 相当 


这 是 相当 大 的 一 个 比例 。 


能 力 不 强 ， 
构 系 统 ， 即 将 微服 务 器 和 专 


需要 设计 异 


里 器 有 机 结合 起 来 。 本 节 以 专 月 


ty 


在 


发 展 过 程 中 需要 考虑 如 何 适 应 


应 更 多 的 应 用 。 
j 的 加 速 器 或 者 更 强大 的 高 


HUNG ait A Bi ETT ALI o 


| 我 们 在 Xeon 和 Atom 两 种 不 同 的 计算 机 集群 上 测试 Mastiff 的 实验 不 仅 验证 
功 耗 比 , 通过 对 工作 负载 的 时 
入 缩 和 解压 ) 占用 了 不 小 比例 的 CPU 时 间 。 图 
占用 了 绝 大 部 分 CPU 时 间 ， 但 是 压缩 操作 也 


间 


司 被 Hadoop 框架 
大 的 时 间 比 例 。 


和 数据 查询 (data query) 任务 中 压缩 和 解压 占用 


分 解 ,我 们 还 可 以 看 到 某 些 固定 的 
10(a) 显 示 了 对 Map 阶段 的 时 间 
占有 不 小 的 
图 10(b) Reduce 阶段 的 时 间 分 


上 ， 数 据 加 载 (data load) 
A LEIA) FIFE 41.2% 和 37.9%. 


由 于 压缩 解压 占用 了 很 大 的 微服 务 器 ECE 片 外 硬件 
一 部 分 CPU 时 间 , 异 构 系统 的 提 TENER i 
出 成 为 很 自然 的 事情 。 我 们 可 以 PESA 
将 压缩 解压 操作 从 CPU ES naa 
出 来 ， 交 给 硬件 加 速 器 来 完成 。 
硬件 加 速 器 可 以 消除 通用 处 理 器 
上 的 时 间 开 销 ， 从 而 取得 高 出 好 

See KE 速 串 

几 个 数量 级 的 加 速 比 和 性 能 功 耗 人 
比 。 

实现 以 上 这 样 的 异 构 系 统 ， l 
图 11 给 出 了 两 个 可 能 的 选择 : 一 片上 一 致 互联 
是 PCI-E 加 速 卡 ， 二 是 芯片 集成 = 
加 速 器 。 前 者 适用 于 升级 现 有 系 人) 片上 实现 方案 
统 ， 而 后 者 是 更 加 根本 的 增强 方 11. 硬件 加 速 器 的 实现 回 
式 ， 需 要 重新 设计 必 片 。 
4.2 分 离 

征服 务 器 的 研究 范围 需要 从 处 理 器 向 系统 扩展 ， 包 括 互联 技术 、 存 储 技术 ， 以 及 相关 硬 
件 加 速 工作 。 在 设计 中 应 该 想方设法 把 可 以 从 CPU 上 分 离 的 负载 分 离 出 来 。 网 络 互联 中 的 
TCP/IP 协议 栈 的 处 理 可 以 由 网 卡 上 的 高 效 的 专用 集成 电路 完成 ， 从 而 节省 弱 CPU 的 时 间 。 
这 样 ， 无 论 是 时 间 效 率 还 是 功 耗 效率 都 会 有 所 提高 。 而 将 存储 设备 与 计算 资源 分 离开 ， 则 可 


以 降低 磁盘 容量 
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